C5-4 疑似データを用いたGPT-2による日本語文章の多段階平易化

背景

やさしい日本語

吾輩は猫である→私は猫です

元の文と平易化文のユーザー理解度がマッチしない

専門用語がわからないだけなのに全部ひらがなにされたりすると困る

多段階平易化によってユーザーに合わせた平易化を実現する

Newselaが便利だが日本語はない

SNOWで生成した疑似データで代替した

難易度別の疑似データセットを構築、ファインチューニング

現代日本語書き言葉均衡コーパス

図書館コーパス

教科書コーパス

文書分類のようにファインチューニング

SNOWとGPT-2で平易化文を生成、難易度判定器で推定難易度を測り、分類

疑似データ（生成データ）をそのまま使ったのでノイズあり

同犠牲や類似度を評価して意味的にあきらかにおかしいノイズを除去する

https://gyazo.com/d3be7d74813f481b870dfdee7fde44b4

だいたい学校で習う漢字で難易度が決まっているらしい

https://gyazo.com/303d2b52c9ff7d4560ccee1458e8ef95

https://gyazo.com/64013f3734dd3171b84d72e0d12cad84

https://gyazo.com/873b9148ab516f4b05de958fe28eafca

https://gyazo.com/df24a75a9c65fa4e08225dde4ba18af8

https://gyazo.com/1258591b3f6ed90c4bcb7b6fdd995523